【인사판】고등학교 수학 필수 제2권 (A형): 현실에서 데이터로: 과학적 표본 추출의 논리와 방법

统计学是通过收集数据和分析数据来认识现象的一门科学。在现实生活中，我们往往无法调查每一个对象，因此需要通过“抽样”来以偏概全，实现科学推断。

1. 통계 조사의 핵심 용어

전수 조사 (인구 조사): 모든 조사 대상에 대해 조사를 시행하는 방법.
표본 조사 (샘플링 설문조사): 从总体中抽取一部分个体进行调查，并以此为依据对总体情况作出估计和推断。
총계 (인구집단): 조사 대상의 전체.
개체 (개별 대상): 총계를 구성하는 각각의 조사 대상.
표본 (샘플): 총계에서 추출된 그 일부 개체.
표본 크기: 표본에 포함된 개체의 수.

2. 데이터 수집의 다양한 경로

직접적으로조사({예: 인구 조사})를 통해 데이터를 얻는 것 외에도, 다음과 같은 방식으로도 가능합니다:

실험: 통계학에서 실험을 계획하는 학문을 '실험 설계'라고 합니다.
관찰: 자연 상태에서 정보를 수집하는 것.
조회: 이전에 수집된 데이터를 획득하며, 이러한 데이터를이차 데이터라고 부릅니다.

표본은 무작위성을 가진다. 따라서 표본을 기반으로 총계를 추정할 때, 통계적 추론 결과는확률성({즉 오류가 발생할 수 있음})를 가지게 되며, 이는 통계 결과를 실제 문제를 설명할 때 주의해야 할 점입니다.

比例公式：$\frac{n}{N} = \frac{\text{层样本量}}{\text{各层总体量}}$

질문 1

어떤 지역에서 컴퓨터 능력 시험에 응시한 5,000명의 학생 성적을 이해하기 위해, 그 중 200명을 추출하여 조사 및 분석했습니다. 이 문제에서 추출된 200명의 학생은 ( )입니다.

A. 총계

B. 개체

C. 표본

D. 표본 크기

질문 2

한 회사에는 총 $N$명의 직원이 있으며, 여러 부서가 있습니다. 전체 직원 중에서 표본 크기가 $n$인 비율 배분 분층 무작위 표본 추출법을 사용하여 표본을 추출하려고 합니다. 만약 어떤 부서에 $m$명의 직원이 있다면, 해당 부서에서 추출할 직원 수는 ( )입니다.

$\frac{m}{n} \cdot N$

$\frac{n}{N} \cdot m$

$\frac{m}{N} \cdot m$

$n - m$

질문 3

다음 조사 중에서 가장 적합하게 표본 조사를 사용할 수 있는 것은 ( )입니다.

한 현의 각 마을의 곡물 재배 면적 조사

일괄적인 옥수수 씨앗의 발아율 확인

어느 기업이 직원의 건강 검진표 조사

어느 반 학생의 시력 전수 조사

질문 4

어떤 지역의 공공 보건 기관이 200명의 학생들의 흡연 여부를 조사했으며, 58명이 '예'라고 답했습니다. 해당 지역의 흡연 학생 비율을 추정할 수 있나요?

29%

58%

20%

추정 불가능

질문 5

간단 무작위 표본 추출과 분층 무작위 표본 추출의 주요 차이는 ( )입니다.

표본 크기의 크기가 다름

각 개체가 표본에 포함될 확률이 동일한지 여부

개체의 차이에 따라 그룹화하여 표본 추출하는지 여부

데이터 처리 방법이 완전히 다름

질문 6

对于 $m$ 个数据 $x_i$ 平均数为 $\bar{x}$，$n$ 个数据 $y_j$ 平均数为 $\bar{y}$，组合后的总平均数公式正确的是 ( )。

$\frac{\bar{x} + \bar{y}}{2}$

$\frac{m\bar{x} + n\bar{y}}{m+n}$

$\frac{\bar{x} + \bar{y}}{m+n}$

$\frac{m+n}{\bar{x} + \bar{y}}$

질문 7

표본 조사의 '확률성'에 관해 다음 중 올바른 말은 ( )입니다.

방법이 과학적이라면 결론은 절대적인 진리이다

표본 조사 결과는 전혀 참고할 가치가 없다

结论是基于样本推断的，存在随机性风险

普查的结果也会产生或然性错误

질문 8

다음 조사 방법 중 '이차 데이터'를 획득하는 것은 ( )입니다.

체육 수업에서 학생들의 100미터 성적을 실측하는 것

도서관에서《통계 연감》의 인구 데이터를 조회하는 것

설문지를 설계하여 보행자의 소비 습관을 조사하는 것

화학 실험을 통해 반응 시간을 기록하는 것

질문 9

분층 무작위 표본 추출에서 총계 크기가 1000, 표본 크기가 100이며, 특정 층에 250명의 개체가 있다면, 해당 층에서 추출해야 하는 개체 수는 ( )입니다.

100

질문 10

简单随机抽样中，每个个体入样的概率是 ( )。

$n/N$

$1/n$

$1/N$

挑战：统计方案设计与推断

阅读材料：市政府计划采用阶梯电价，通过 200 户居民的抽样数据（范围 50~350 kWh）决定标准。目标是使 75% 的居民处于第一档，20% 处于第二档，其余 5% 处于第三档。

1. [Short Answer] 证明分层抽样总均值公式：$\frac{\sum_{i=1}^m x_i + \sum_{j=1}^n y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$

证明：根据平均数定义可知，$\sum_{i=1}^m x_i = m\bar{x}$ 且 $\sum_{j=1}^n y_j = n\bar{y}$。
将其代入左式分子中：
左式 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
证毕。该公式说明总平均数是各层平均数的加权平均值。

2. [Writing Task] 请你为“全校学生体重情况调查”设计一个方案（约 500 字）。

参考方案要点：
1. 明确目标： 了解全校学生的平均体重、肥胖率分布。
2. 确定总体与个体： 全校所有学生为总体，每位学生为个体。
3. 选择抽样方法： 考虑到不同年级、性别的发育差异显著，建议采用分层随机抽样。按年级（高一、高二、高三）及性别作为分层标准。
4. 确定样本容量： 根据人力成本，选取 10% 的学生（如 300 人）。
5. 实施数据收集： 使用实测法（体重秤记录），而非自报（二手数据可能存在偏差）。
6. 分析与推断： 计算样本均值与标准差，绘制频率分布直方图，并根据百分位数定义“超重”标准。

3. [Short Answer] 有人说：“抽样调查比普查节省人力物力，且结果差不多，所以抽样调查永远更可取。”你认为这种说法有道理吗？

参考答案：
这种说法有一定道理，但过于绝对。
(1) 优势： 抽样调查确实具有经济性、及时性，且在具有破坏性（如种子发芽率试验）或总体无限大时是唯一选择。
(2) 局限： 抽样调查存在抽样误差，结论具有“或然性”。对于需要极高精度、涉及国家重大决策（如人口普查）或法律要求必须全覆盖的情况，普查仍然不可替代。
(3) 结论： 应根据调查目的、成本及总体规模灵活选择。